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d 要 : 为 制定 中 国 青 年 女性 红细胞 压 积 参考 值 的 统一 标准 提供 科学 依据 ， 收 集中 国 各 地 用 温 氏 法 测定 的 
健康 青年 女性 红细胞 压 积 参考 值 ， 提 出 了 一 种 基于 支持 向 量 机 的 分 析 青 年 女性 红细胞 压 积 参 考 值 
与 地 理 环 境 的 海拔 高 度 、 年 日 照 时 数 、 年 平均 相对 湿度 、 年 平均 气温 、 年 降水 量 等 要 素 关 系 的 方 
ik. 知道 了 中 国 某 地 的 地 理 因 素 ， 就 可 以 用 此 模型 预测 这 个 地 区 的 青年 女性 红细胞 压 积 参 考 值 . 
实验 结果 表明 ， 支 持 向 量 机 预测 模型 能 够 克服 地 理 要 素 本 身 之 间 具 有 的 共 线 性 ， 反 映 红细胞 压 积 
参考 值 与 地 理 环境 之 间 的 非 线性 、 复 杂 性 关系 特征 ， 并 且 保 持 一 定 的 预测 精度 ， 与 主 成 分 回归 模 
型 相 比 ， 更 适应 于 红细胞 压 积 参考 值 的 预测 . 
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1 引言 


红细胞 压 积 是 血液 流 变 学 的 一 个 重要 指标 . 目前 ， 国 内 外 缺乏 血液 流 变 学 指标 参考 值 的 统 
一 标准 ， 影 响 了 临床 和 科研 成 果 的 准确 性 和 可 比 性 . 为 制定 青年 女性 红细胞 压 积 参考 值 的 统一 
标准 提供 科学 依据 ， 很 多 人 测定 了 本 地 区 的 青年 女性 红细胞 压 积 参考 值 ("， 但 对 不 同 地 区 红 
细胞 压 积 参考 值 之 间 的 关系 以 及 红细胞 压 积 参考 值 与 地 理 环境 之 间 的 关系 研究 较 少 . 

红细胞 压 积 参考 值 与 正常 人 生活 的 地 理 环境 关系 非常 密切 ， 但 地 理 环境 对 红细胞 压 积 参考 
值 的 影响 是 通过 人 们 所 处 的 大 气 条 件 、 饮 食 结 构 、 居 住 环 境 等 要 素 作用 于 人 体 的 血液 而 进行 
的 ,对 地 理 环境 与 红细胞 压 积 参考 值 的 这 种 复杂 的 非 线 性 关系 的 研究 具有 非常 重要 的 意义 . 文 
献 [4-6] 用 相关 分 析 、 回 归 分 析 的 方法 研究 了 红细胞 压 积 参考 值 与 地 理 环境 的 关系 ,文献 了] 用 
主 成 分 回归 的 方法 研究 了 中 年 男性 血红 蛋白 参考 值 与 地 理 因 素 的 关系 . 由 于 回归 分 析 和 主 成 分 
回归 反映 的 仅 是 变量 之 闻 的 线性 关系 ， 所 以 比较 难以 体现 血液 流 变 学 的 重要 指标 与 地 理 环 境 之 
间 复 杂 的 非 线 性 关系 .同时 回归 分 析 方 法 本 身 要 求 自 变量 间 线 性 无 关 ， 由 于 地 理 要 素 本 身 之 间 
具有 较 大 的 相关 性 ， 这 也 影响 了 模型 的 预测 精度 . 

针对 这 种 情况 ， 文 献 8] 应 用 人 工 神 经 网 络 技术 进行 非 线 性 建 模 . 其 基本 原理 是 通过 大 样本 
的 自我 学 习 来 映射 输入 和 输出 关系 ， 从 而 达到 预测 控制 的 目的 ， 然 而 此 模型 还 存在 某 些 难以 解 
决 的 问题 ， 例 如 需要 大 量 的 数据 样本 以 及 模型 存在 过 拟 合 现象 等 ， 这 在 很 大 程度 上 制约 着 该 技 
术 在 红细胞 压 积 参 考 值 与 地 理 环境 关系 的 研究 中 的 应 用 . 
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近 几 年 ， 一 种 基于 由 Vapnik EH B Ze i5 2] FE i6 91 发 展 而 来 的 支持 向 量 机 (support vector 
machine， 即 SVM) 算法 正 受 到 越 来 越 多 的 关注 ， 其 卓越 性 能 体现 在 : 与 人 工 神经 网 络 类 
似 ，SVM 也 是 一 个 完全 基于 数据 的 非 线 性 建 模 工具 ; SVM 模型 基于 结构 风险 最 小 化 原则 ， 泛 
化 性 能 潜力 巨大 ;SVM 的 目标 函数 是 一 个 凸 优化 问题 ， 其 最 优 解 具有 唯一 性 ; 在 SVM 模型 
中 ， 应 用 核 技 术 ， 将 输入 空间 中 的 非 线性 问题 通过 非 线性 函数 映射 到 高 维特 征 空 间 中 ， 在 高 维 
空间 中 构造 线性 判别 函数 : SVM 专门 针对 小 样本 情况 ， 其 最 优 解 基于 已 有 样本 信息 ， 而 不 是 
样本 数 趋 于 无 穷 大 时 的 最 优 解 ， 现 有 的 文献 中 较 少 发 现 有 SVM 模型 用 于 研究 红细胞 压 积 参考 
值 与 地 理 环境 的 关系 . 本 文 拟 就 此 展开 讨论 . 

本 文 首 先 介 绍 资料 来 源 ， 进 而 对 中 国 各 地 用 温 氏 法 (wintrobe) 测定 的 139 组 健康 青年 女性 
红细胞 压 积 参考 值 与 地 理 环境 的 数据 进行 相关 分 析 ， 其 次 介绍 SVM 算法 ， 提 出 了 基于 支持 向 
量 回 归 的 研究 青年 女性 红细胞 压 积 参考 值 与 地 理 环境 之 间 关 系 的 方法 ， 发 现 有 一 定 的 规律 性 . 


2 资料 


收集 了 中 国 139 个 市 (县 ) 级 医院 和 有 关 研 究 单位 及 高 等 院 校 测定 的 8486 例 健康 青年 女性 红 
细胞 压 积 参考 值 ， 年 龄 范围 是 18-25 岁 之 间 的 青年 女性 ; 这 些 单位 分 布 在 中 国 31 个 省 、 市 、 自 
治 区 ， 缺 乏 台湾 省 、 香 港 特别 行政 区 、 澳 门 特别 行政 区 的 资料 ， 东 部 平原 地 区 的 资料 多 于 西部 
高 原 地 区 的 资料 . 测定 红细胞 压 积 参考 值 的 方法 有 多 种 ， 本 文 收集 的 是 用 温 氏 法 测定 的 红细胞 
压 积 参考 值 . 温 氏 法 测定 的 方法 是 :常规 采 静 脉 血 2.5ml， 注 入 肝素 抗 凝 试管 中 ， 轻 轻 混 匀 ， 
用 毛细 吸管 吸取 抗 凝血 慢 慢 加 入 温 氏 压 积 管内 至 “10” 刻 度 处 ， 不 能 有 气泡 ， 将 压 积 管 放 入 离 
心机 中 ， 以 2300g 的 离心 力 离心 30min， 直 到 红细胞 体积 不 再 改变 为 止 ， 读 取 右 侧 红 细胞 层 的 
高 度 ， 读 数 乘 10 即 为 红细胞 压 积 百分率 . 

地 理 环境 主要 选取 的 指标 是 海拔 高 度 zi， 年 日 照 时 数 zs， 年 平均 相对 湿度 zs， 年 平均 气 
温 z4a， 年 降水 量 zs 等 五 项 指标 .地理 资 料 中 的 海拔 高 度 来 源 于 测绘 局 数据 中 心 提 供 的 共享 资 
料 ， 年 平均 气温 和 年 降水 量 、 年 相对 温度 来 源 于 国家 气象 局 数据 中 心 提供 的 共享 资料 ， 年 日 照 
时 数 和 共享 资料 中 未 列 出 的 数据 主要 取材 于 有 关 地 理 著 作 和 辞典 . 


3 ”相关 分 析 


运用 相关 分 析 计 算出 青年 女性 红细胞 压 积 参 考 值 y 与 海拔 高 度 z1， 年 日 照 时 数 za， 年 平均 
相对 湿度 ze， 年 平均 气温 za， 年 降水 量 zs 的 简单 相关 系数 7 分 别 是 


Tey = 0.908， rasy — 0.507, Tesu = —0.678, r4, = —0.863, Tes y = —0.594. 
分 析 结 果 显 示 ， 红 细胞 压 积 参考 值 与 各 个 地 理 因 素 的 相关 性 在 0.01 的 显著 性 水 平 下 显著 ， 
同时 ， 各 个 地 理 因 素 之 间 也 具有 较 强 的 共 线性 . 
4 基于 支持 向 量 机 的 回归 算法 


假设 训练 样本 集 
G = {xy}, 
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其 中 me R” 为 输入 值 ，y; c 及 为 输出 值 ， 支 持 向 量 回归 模型 的 基本 思想 就 是 将 mm 维 输入 向 
E z 通 过 某 种 非 线性 关系 峭 映 射 到 高 维特 征 空间 玉 中 ， 从 而 在 特征 空间 下 中 实现 线性 回归 


N 
f(z) = X oio! (a:)ó(2) + b, (1) 
i—1 
其 中 gz) 表示 z 在 特征 空间 上 的 映射 ， 未 知 参数 (o, ) RED ABER BUSCRI IR 2E T3, TA 
在 样本 集训 练 过 程 中 获得 ， 为 了 避免 出 现 过 拟 合 现象 进而 提高 模型 的 泛 化 能 力 ， 需 要 考虑 结构 
风险 原则 并 使 下 列 函 数 极 小 化 


N 
Ré») = & Y Nm) -wl +All’, (2) 
i—1l 
其 中 入 为 调解 国 子 ，|J(m) — yle 定义 为 Vapnik-e 不 敏感 损失 函数 ， 其 表达 式 为 
i] Yi|l ^5 i) Yi > , 
Jeza [f(zi)— uile, Ifl) -— ul > e (3) 
0, |f (az) — wil <e, 


其 中 f (a) 为 通过 对 样本 集 的 学 习 而 构造 的 回归 估计 函数 ，y AAN e EE. e> 0 为 与 函 
数 估计 精度 直接 相关 的 设计 参数 ， 将 < 不 敏感 损失 函数 形象 地 比喻 为 = 管道 ， 它 意味 着 不 惩罚 
偏差 小 于 < 的 误差 项 . 

Vapnik? 认为 式 (2) 极 小 化 后 可 以 得 到 


N 
f(z,o, o7) = $ "(o — o) K (ai, 2) + b, (4) 


i=1 


其 中 Qi, ay > 0 为 拉 格 朗 日 乘 子 ， 天 (wmi, x) 为 核 函数 且 有 
K (25, 25) = 9 (z;)ó(z;). (5) 


式 (4) 和 (5) 的 一 个 重要 特点 是 对 于 特征 (x)， 核 函数 到 都 可 以 被 解析 表达 且 形 式 相对 简单 ， 
因此 ， 无 需 将 矢量 m, zi 直接 映射 到 特征 空间 下 中 ， 即 无 需 计算 $ (m), 9(zj)， 就 可 以 计算 特 
征 空间 的 内 积 ， 但 是 前 提 是 该 核 函 数 必须 满足 Mercer 条 件 . 常见 的 核 函数 有 多 项 式 、 径 向 基 
以 及 Sigmoidal 函数 等 ， 根据 凸 优化 的 充 要 条 件 ， 拉 格 朗 日 乘 子 ai, ot 可 由 下 式 获得 


N N N 

* 1 * * * 

max R(oj,0;)-— -3 1 (o; — o3)(o5 — aj) K (2i, £j) — € 》 (oj t oi) 十 > yila + ai) 
i, j=1 i=1 i=l 


N 
s.t. D(a: —o;j)-0, OXojo; XC. (6) 
i=l 


由 上 述 优化 方程 ， 可 以 求 出 Qi, ar. 对 于 Vapnik-e 不 敏感 损失 函数 而 言 ， 拉 格 朗 日 乘 子 ai ot 
RERA DRE a, a 不 为 零 所 对 应 的 向 量 z 被 称 为 支持 向 量 、 称 式 (4) 为 支持 向 量 回 
BEN. 从 上 面 的 论述 中 ， 不 难 发 现 与 常规 的 回归 方法 相 比 ， 支 持 向 量 回 归 模型 具有 两 方面 
的 优势 : 采用 结构 风险 最 小 化 作为 优化 目标 ， 提 高 了 回归 函数 的 泛 化 能 力 ; 引入 了 核 方法 ， 
实现 了 低 维 数据 空间 与 高 维特 征 空间 的 非 线性 映射 ， 提 高 了 回归 函数 的 非 线性 数据 处 理 能 
Jj. SVM 回归 算法 详细 的 描述 可 以 参考 文献 [10]. 基于 此 ， 本 文 用 SVM 回归 模型 来 分 析 和 预 
测 青年 女性 红细胞 压 积 参考 值 与 地 理 环境 复杂 的 非 线 性 关系 . 
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5 “青年 女性 红细胞 压 积 参考 值 预测 模型 








5.1 模型 设计 

在 青年 女性 红细胞 压 积 参 考 值 与 地 理 要 素 的 关系 研究 中 ， 主 要 构建 青年 女性 红细胞 压 积 参 
考 值 的 预测 模型 .在 预测 型 学 习 任 务 中 ， 模 型 及 其 参数 选择 是 有 效 预测 的 前 提 ， 这 里 采用 ex 
持 向 量 回归 机 作为 青年 女性 红细胞 压 积 参考 值 的 预测 模型 . 该 模型 中 需要 确定 的 结构 参数 有 ， 

1) ”惩罚 因子 C: 表示 在 决策 函数 的 复杂 性 和 决策 误差 之 间 的 折 中 程度 ; 

2) &: 表示 < 不 敏感 损失 函数 中 的 偏差 

3) ARA: 这 里 采用 较为 常用 的 高 斯 径 向 基 函 数 


K (æi, æj) = exp (— las — zl? /22?), 


HP o 是 核 函 数 的 带宽 . 

5.2 参数 选择 

模型 选 定 后 ， 需 要 人 为 确定 的 参数 包括 (e, C,o). 这 些 参数 一 般 无 法 直接 获得 ， 而 且 这 些 
参数 的 确定 没有 严格 的 理论 作 指 导 ， 一 定 程度 上 依赖 于 使 用 者 的 经 验 和 试 凑 与 比较 . 这 里 假 
定 e=0.1, C= 1.7, 0 = 0.37. 

5.3 试验 和 分 析 

利用 支持 向 量 机 方法 进行 青年 女性 红细胞 压 积 参考 值 的 预测 ， 首 先 要 确定 影响 青年 女性 红 
细胞 压 积 参 考 值 的 主要 地 理 要 素 ， 其 次 要 选择 具有 观测 资料 的 地 理 要 素 和 青年 女性 红细胞 压 积 
参考 值 构 成 样本 数据 集 ， 然 后 利用 SVM 进行 学 习 训 练 ， 最 后 根据 训练 所 得 参数 进行 预测 . 

选择 与 青年 女性 红细胞 压 积 参考 值 y 相 关 性 显著 的 地 理 要 素 : 海拔 高 度 zi， 年 日 照 时 
数 zz， 年 平均 相对 湿度 za， 年 平均 气温 z4， 年 降水 量 zs 作为 e-SVR 的 输入 向 量 ， 青 年 女性 红 
细胞 压 积 参考 值 y 作为 该 模型 的 输出 变量 . 采集 中 国 各 地 用 温 氏 法 测定 的 139 组 健康 青年 女性 
红细胞 压 积 参考 值 以 及 相应 的 地 理 要 素 的 数据 作为 样本 数据 集 ， 这 139 组 数据 是 对 收集 的 中 
国 139 个 市 (县 ) 级 医院 和 有 关 研 究 单位 及 高 等 院 校 测定 的 8486 例 健康 青年 女性 红细胞 压 积 参 
考 值 进行 均值 预 处 理 之 后 得 到 的 . 其 中 ， 前 133 组 用 于 模型 训练 ， 后 6 组 数据 用 于 模型 测试 ， 
这 六 组 测试 数据 分 别 取 自 中 国 的 青藏 区 ， 西 南 区 ， 西 北 区 ， 东 南 区 ， 华 北 区 ， 东 北 区 ， 代 表 的 
城市 分 别 为 拉萨 、 贵 阳 、 银 川 、 南 昌 、 北 京 、 长 春 . 

目前 ， 基 于 SVM 的 算法 软件 已 经 相对 成 熟 ， 本 文 模型 训练 采用 LIBSVM 2.8 软件 包 ， 该 软 
件 包 主 要 应 用 SMO 算法 求解 凸 优化 问题 ， 具 有 快速 高 效 的 特点 . 基本 步骤 如 下 : 

1) 为 了 消除 由 于 量 纲 和 单位 不 同 造成 的 影响 ， 并 且 避 免 在 训练 时 计算 核 函 数 时 引起 数值 
计算 的 困难 ， 对 样本 的 输入 、 输 出 数据 用 svmscale.exe 程序 分 别 进行 归 一 化 处 理 ， 数 据 略 ; 

2) ”确定 模型 的 输入 、 输 出 关系 后 , 假定 参数 ce = 0.1, C = 1.7, o = 0.37， 用 svmtrain.exe 
对 133 组 样本 数据 进行 训练 ， 获 得 模型 ; 

3) 用 svmpredict.exe 对 6 组 测试 数据 进行 测试 ， 表 1 给 出 了 训练 完成 后 模型 测试 试验 的 结 
果 ， 通 过 相关 系数 玉 ， 差 值 均 平方 MSE 和 平均 相对 误差 e% 等 统计 指标 与 对 应 的 主 成 分 回归 模 
型 进行 了 对 比 . 

可 以 看 到 ， 就 主 成 分 回归 模型 而 言 ， 支 持 向 量 回归 模型 的 预测 精度 与 可 靠 性 均 有 明显 提 
高 ， 由 于 受 数 据 资料 的 影响 ， 青 年 女性 红细胞 压 积 参 考 值 是 一 个 比较 难以 预测 的 指标 ， 但 即使 
这 样 ， 支 持 向 量 回 归 模 型 的 预测 能 力 同 主 成 分 回归 模型 相 比较 也 得 到 了 一 定 程度 的 改善 . 
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表 1: 青年 女性 红细胞 压 积 参 考 值 预测 模型 性 能 对 比 





实测 值 S 主 成 分 回归 ”支持 向 量 机 回归 








样本 点 zi Z2 Z3 T4 T5 
y TUnMÉ Tni 
拉萨 ^ 36580 3007.7 45 7.5 4540 50.5 48.8 48.7 
贵阳 — 1071.2 13710 79 153 1174.7 424 42.8 42.3 
银川 1111.5 3039.6 59 8.5 2028 43 43.7 44.1 
昌 46.7 19039 77 17.5 1596.4 40.5 38.9 40.2 
北京 31.2 2780.20 60 11.5 6442 41 40.7 41.3 
长 春 236.8 2643.5 65 49 593.8 41.3 43.7 41.9 
R 0.908 0.978 
MSE 2.05 0.85 
e96 3 1.2 
6 ”结论 


从 简单 相关 系数 可 以 看 出 ， 青 年 女性 红细胞 压 积 参考 值 与 地 理 环境 的 海拔 高 度 、 年 日 照 时 
数 、 年 平均 相对 湿度 、 年 平均 气温 和 年 降水 量 的 相关 性 很 显著 ， 其 中 海拔 高 度 是 影响 青年 女性 
红细胞 压 积 参考 值 最 主要 的 因素 . 研究 表明 : 随 着 海拔 高 度 的 逐渐 增 大 ， 空 气 逐 渐 稀薄 ， 氧 含 
量 逐 渐 减 小 ， 机 体 为 了 适应 缺 所 的 环境 ， 血 液 中 的 红细胞 数 代 偿 性 的 逐渐 增加 ， 导 致 青年 女性 
红细胞 压 积 参考 值 的 逐渐 增 大 . 

如 果 知 道 了 中 国 某 地 的 海拔 高 度 、 年 日 照 时 数 、 年 平均 相对 湿度 、 年 平均 气温 和 年 降水 
量 等 地 理 因素 指标 ， 就 可 以 用 建立 的 支持 向 量 回 归 预 测 模型 来 估算 这 个 地 区 的 青年 女性 红 
细胞 压 积 参 考 值 . 例如 : 北京 的 海拔 高 度 是 31.2m， 年 日 照 时 数 是 2780.2h， 年 平均 相对 湿度 
是 60.0%， 年 平均 气温 是 11.5'C， 年 降水 量 是 644.2mm， 用 支持 向 量 回 归 模 型 计算 得 青年 女性 
红细胞 压 积 参考 值 的 预测 值 为 41.3. 

基于 主 成 分 回归 的 红细胞 压 积 参考 值 预测 模型 是 先 对 地 理 因素 进行 线性 组 合 ， 得 到 彼此 之 
间 不 相关 的 新 的 综合 变量 ， 再 将 综合 变量 与 红细胞 压 积 参考 值 进行 回归 分 析 ， 可 以 剔除 重 登 的 
信息 从 而 使 问题 得 到 综合 简化 . 而 基于 支持 向 量 机 方法 的 预测 模型 由 于 采用 结构 风险 最 小 化 作 
为 优化 目标 ， 从 而 提高 了 回归 函数 的 非 线 性 数据 处 理 能 力 ， 在 “噪音 ”数据 环境 下 仍 能 保持 一 
定 的 预测 精度 . 实验 数据 表明 ， 该 方法 克服 了 地 理 要 素 本 身 之 间 具 有 的 共 线性 ， 反 映 了 红细胞 
压 积 参考 值 与 地 理 环境 之 间 的 非 线 性 、 复 杂 性 关系 特征 ， 与 主 成 分 回归 模型 相 比 ， 更 适应 于 红 
细胞 压 积 参考 值 的 预测 . 
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Abstract: In order to provide a basis for unifying the reference value criteria standard of Chinese 
young women's hematocrit, the paper discusses the nonlinear relationship between the reference value 
of Chinese healthy young women's hematocrit which are determined by the wintrobe laws and geog- 
raphy factors based on support vector machines. The selected geographical factors include altitude, 
annual sunshine hour, annual average relative humidity, annual average temperature and annual pre- 
cipitation. If the geographical values are obtained in some area, the reference value of Chinese young 
women's hematocrit of this area can be reckoned using this SVM model. Experimental results show 
that the SVM model is capable of overcoming the multicollinearity between the geography factors and 
maintaining the stability of the predictive accuracy, and is more suitable for predicting the hematocrit 
value than the principal component regression analysis. 

Keywords: support vector machines; hematocrit; reference value; geographical environment; hemorhe- 
ology 
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